让 Avatar 动起来 - InstructAvatar、EMO、Follow-Your-Emoji

Original renee创业狗 Renee 创业随笔

2024-10-09

接着昨天的腾讯的两个对口型项目，今天再分享三个。

InstructAvatar

简介：InstructAvatar 是一个用于文本指导情感和动作控制的 Avatar 生成工具。

链接：https://github.com/wangyuchi369/InstructAvatar

团队：北京大学

场景：

Emotional Talking Control
情感说话控制
Facial Motion Control
面部动作控制

模型架构：

InstructAvatar 由两个组件组成：VAE H 用于从视频中解开运动信息，以及运动生成器 G 用于在音频和指令条件下生成运动潜变量。由于模型有两种类型的数据，在指令和音频中设计了两个开关。在推理过程中，VAE 中的运动编码器将被丢弃，通过迭代去噪高斯噪声来获得预测的运动潜变量。结合用户提供的肖像，通过 VAE 的解码器生成最终的视频。

EMO

简介：EMO 是一个在弱条件下，通过 Audio2Video 扩散模型生成表情丰富的人像视频的工具。

链接：https://github.com/HumanAIGC/EMO

团队：阿里巴巴

场景：

唱歌

使肖像唱歌
不同语言和肖像风格
Rap

说话

与不同角色对话
跨演员表演

模型架构：

EMO提出的方法框架主要包括两个阶段。在初始阶段，即帧编码阶段，使用 ReferenceNet 从参考图像和运动帧中提取特征。随后，在扩散过程阶段，预训练的音频编码器处理音频嵌入。面部区域掩码与多帧噪声结合，以控制面部图像的生成。接下来，使用骨干网络来进行去噪操作。在骨干网络中，应用了两种注意机制：参考注意力和音频注意力。这些机制对于保持角色身份和调节角色动作至关重要。此外，还利用时间模块来操作时间维度，并调整运动速度。

Follow-Your-Emoji

简介：Follow-Your-Emoji 是一个基于扩散的肖像动画框架，使用目标地标序列来动画化参考肖像。肖像动画的主要挑战是保持参考肖像的身份，传递目标表情，同时保持时间一致性和逼真度。

链接：https://follow-your-emoji.github.io/

团队：香港大学、腾讯、清华大学

场景：

Single Motion + Multiple Portraits
单一动作 + 多个肖像
Single Portrait + Multiple Motions
单一肖像 + 多个动作

模型架构

首先使用地标编码器提取表情感知地标序列的特征，并将这些特征与多帧噪声融合。

然后，利用渐进策略随机掩盖输入潜在序列的帧。

最后，将这个潜在序列与融合后的多帧噪声拼接，并将其输入到去噪 U-Net 进行去噪处理以生成视频。

外观网络和图像提示注入模块帮助模型保持参考肖像的身份，时间注意力保持时间一致性。

在训练过程中，面部精细损失引导 U-Net 更多关注面部和表情的生成。

在推理过程中，参考 AniPortrait，使用运动对齐模块将目标地标与参考肖像对齐。然后，首先生成关键帧，并利用渐进策略预测长视频。

继续滑动看下一个

Renee 创业随笔

向上滑动看下一个

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

让 Avatar 动起来 - InstructAvatar、EMO、Follow-Your-Emoji

InstructAvatar

EMO

Follow-Your-Emoji

模型架构

您可能也对以下帖子感兴趣

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

生成图片，分享到微信朋友圈

让 Avatar 动起来 - InstructAvatar、EMO、Follow-Your-Emoji

InstructAvatar

EMO

Follow-Your-Emoji

模型架构

您可能也对以下帖子感兴趣